GPT-4“人形化”！会摆 Pose、能扮鬼，无需具体编码，开口即可「微调」

CSDN 2023-12-22

整理 | 郑丽媛

出品 | CSDN（ID：CSDNnews）

自 OpenAI 推出 ChatGPT 的这一年来，人们不断尝试其使用方式，包括讲笑话、写小说、编代码、做总结等等。到了今年 9 月，ChatGPT 又新增了语音和图像功能，使其应用场景更为广泛——如今，ChatGPT 背后的 GPT-4，似乎连一些动作都能尝试“复现”了！

近日，来自东京大学的团队开发了一个新型人形机器人 Alter3：它由 GPT-4 驱动，能摆出一系列姿势，包括自拍 Pose 或扮鬼等，且无需事先对这些姿势进行编码。

LLM 如何融入物理世界？

正如开头所说，近一年来 GPT-4 显示出了卓越的推理能力，可尽管这些能力使 LLM 能在交互中表现出“类人”行为，但其表达和活动仍仅限于文本领域，并不能立足于物理世界。基于此，如何利用 LLM 解释和模拟人类反应、促进人类与机器人之间的基本交流，成为 LLM 融入物理世界的突破口。

以此为目的，许多研究人员开始探索 LLM 帮助机器人理解和处理复杂指令的方式，以增强机器人的功能和自主性：2022 年，谷歌联合 Everyday 机器人开发了一种新的语言处理模型 SayCan。

据了解，SayCan 可从语音和上下文中提取并生成重要信息，选择最合适的动作序列。然而通常情况下，机器人控制依赖于硬件，但这并不属于 LLM 体系的范围，导致 LLM 很难直接控制机器人——Say-can 模型需要通过时间差分学习和奖励函数来控制机器人。

因此，东京大学团队提出设想：LLMs 中编码的大量知识能否直接为机器人所用？

在这种想法的驱动下，该团队将人形机器人 Alter3 与 GPT-4 相结合，并找到了一种直接控制的方法：与描述机器人手臂的动作相比，描述人类动作更为常见，可以让 LLM 将人类动作的表达转化为机器人能够理解的代码，从而使得 Alter3 产生自发运动。

论文中介绍，Alter3 是自 2016 年以来 Alter 人形机器人系列的第三代，共配备了 43 个驱动器，由压缩空气驱动，能做出各种面部表情和肢体动作，虽不具备行走能力，但可以模拟行走和奔跑的动作。

实际上，在该团队决定将 GPT-4 集成到 Alter3 之前，Alter3 就曾通过摄像头和 OpenPose 框架模仿过人类动作，即调整其关节以复制观察到的姿势，并存储模仿成功的动作供之后参考。紧接着，该团队又通过人与 Alter2 和 Alter3 之间的相互模仿情景，发现机器人的多样化动作源于模仿人类。

不过，当时团队必须按照一定顺序控制 Alter3 身上的 43 个驱动器，才能模仿出一个人类动作，例如端茶倒水或下棋等，且过程中通常需要手动进行多次改进：“多亏了 LLM，我们现在可以从重复劳动中解脱出来了。”

用口头指令，即可控制机器人动作

根据该团队介绍，他们用口头指令控制 Alter3 人形机器人的背后，主要靠两个技术：CoT（思维链）和 zero-shot（零样本学习）。凭借这两个技术，GPT-4 能直接将描述人类动作的自然语言转换成机器人可理解并执行的代码，控制 Alter3 不再完全依赖于硬件本身——整个过程中，人们无需再对 Alter3 的任何一个身体部位进行具体编码。

从论文内容来看，该团队把 GPT-4 和 Alter3 集成到一起，大致可分为两个步骤：

（1）先用 prompt 描述想让 Alter3 做的动作，例如“来张自拍”、“扮个鬼吧”等。接到输入的 GPT-4 会生成一系列步驟，详细描述完成这个动作需要先后做什么。

（2）然后，研究人员再给出另一个 prompt，要求 GPT-4 把这些分解后的详细步驟转化为 Alter3 可以听懂的动作指令，以此来控制 Alter3 身体的各个部位，最终完成要求动作。

以上这两个步骤，该团队都将其视为 CoT 的一部分，也就是把一个复杂抽象的任务分解为一串更简单具体的任务的思考步骤。团队表示：CoT 让 GPT-4 能有效控制 Alter3，让它做各种复杂动作，还不用额外训练和微调。

更值得一提的是，由于 GPT-4 新增了语音功能，因此人们通过口头指令即可操控 Alter3 摆出各种姿势。

例如，你可以对 Alter3 说“用你的 iPhone 来张自拍”，Alter3 就会向 OpenAI 的 GPT-4 发起一系列调用，询问如何完成自拍动作等，然后 GPT-4 会将其转化为机器人能够理解的 Python 代码，控制 Alter3 做出相应动作。此外，人们通过语言反馈也能直接调整 Alter3 的姿势，避免了复杂的模型微调。

“机器人开发领域的一大进步”

为了评估 GPT-4 生成动作的能力，该团队让 Alter3 做出了 9 种不同的动作，并邀请测试者进行打分（满分 5 分）。这 9 个动作主要分为两种：

第一种是即时手势，包括“自拍”和“喝茶”等日常动作，以及“扮鬼”和“扮蛇”等模仿动作。
第二种是情景，即一段时间内的连续动作，包括更复杂的情景，包括“在电影院里边吃爆米花边欣赏电影时，突然发现自己吃的其实是旁边人的爆米花”等情景。

基于这两种类别，团队指定 Alter3 做的 9 个动作分别是：“扮蛇”、“喝茶”、“扮鬼”、“用手投球”、“用手机自拍”、“放摇滚乐”、“在公园里慢跑时，世界似乎在讲述一个古老的生存故事，每一个脚步声都回荡着亘古的存在”、“放金属音乐（有反馈）”、“在电影院里边吃爆米花边欣赏电影时，突然发现自己吃的其实是旁边人的爆米花”。

下面展示 Alter3 完成的其中两个动作：

（1）“用手机自拍”：

（2）“在电影院里边吃爆米花边欣赏电影时，突然发现自己吃的其实是旁边人的爆米花” ：

这一结果表明，GPT-4 可以将这些动作特征准确映射到 Alter3 身上，由此生成各种动作，从自拍、喝茶等日常动作到模仿鬼或蛇等非人类动作。面对 Alter3 做出的九个动作，测试者对其评分结果如下。

此外，该团队还强调，由于 Alter3 是一个人形机器人，所以 GPT-4 可直接应用有关人类行为和动作的丰富知识，例如在“吃错爆米花”时，GPT-4 推断出了尴尬的情绪，并准确反映到了 Alter3 的表情上。

基于此，该团队在论文中透露，他们计划将其研究成果用于其他人形机器人，并称这是“机器人开发领域的一大进步”：

“这种从文本到动作的技术，让机器人能根据对话内容即时给出相应的面部表情和肢体动作，代表了人形机器人技术的重大进步，只需进行极少的修改就能轻松应用至其他机器人。”

参考链接：

https://arxiv.org/pdf/2312.06571.pdf

https://www.tomsguide.com/news/this-robot-powered-by-the-ai-tech-behind-chatgpt-is-creepy-proof-that-were-a-long-way-away-from-skynet

https://tnoinkwms.github.io/ALTER-LLM/

推荐阅读：

▶“3 天删了 5 万行代码后，我的 Web 程序活得更好了！”

▶年底让我们聊聊云原生稳定性、调度优化、行业实践，NPCon 2023 云原生实践峰会纪实

▶稚晖君再融资，金额超6亿元；ChatGPT成为Nature年度十大人物；Kubernetes v1.29 发布｜极客头条

继续滑动看下一个

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！

GPT-4“人形化”！会摆 Pose、能扮鬼，无需具体编码，开口即可「微调」

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下 一生守护”慈善项目捐赠仪式圆满举行！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！

生成图片，分享到微信朋友圈

GPT-4“人形化”！会摆 Pose、能扮鬼，无需具体编码，开口即可「微调」

您可能也对以下帖子感兴趣

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！